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基于 深度 学 习 的 人 体 动作 识别 方法 


李 玉 鹏 ， 刘 婷 婷 ， 张 ” 恨 
(中 国民 航 大 学 天 津 市 智能 信号 与 图 像 处 理 重点 实验 室 ， 天津 300300) 


dE 要 : 针对 人 体 动 作 深度 视频 的 四 维 信息 映射 到 二 维 空间 后 ， 动 作 分 类 容易 发 生 混淆 的 问题 ， 提 出 一 种 基于 深度 学 
习 的 人 体 动作 识别 方法 。 首先 构 建 空间 结构 动态 深度 图 , 将 深度 视频 的 四 维 信息 映射 到 二 维 空间 , 进行 信息 降 维 处 理 ; 
然后 提出 基于 联合 代价 函数 的 深度 卷 积 神 经 网 络 ， 结 合 交 叉 粒 损失 函数 与 中 心 损 失 函 数 作 为 联合 代价 函数 ， 指 导 卷 积 
层 学 习 到 更 具 分 辨 力 的 深度 特征 ， 以 进行 更 精确 的 分 类 。 在 MSRDailyActivity3D 和 SYSU 3D HOI 两 个 数据 集 的 实验 
结果 表明 ， 与 现 有 方法 相 比 ， 该 方法 识别 率 得 到 了 较 明 显 地 提升 ， 验 证 了 该 方法 的 有 效 性 和 和 章 棒 性 。 该 方法 较 好 地 解 
决 了 动作 分 类 容易 发 生 混 消 的 问题 。 
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Human action recognition based on deep learning 


Li Yupeng, Liu Tingting, Zhang Liang 
(Tianjin Key Laboratory of Advanced Signal & Image Processing, Civil Aviation University of China, Tianjin 300300, China) 


-— Abstract: In order to solves the problem of action classification prone to confusion after mapping the four-dimensional depth 
information to two-dimensional space, this paper proposed a method for human action recognition based on deep learning. 
Firstly, the method constructed spatially structured dynamic depth images for dimension reduction. Then, it proposed the deep 
convolution neural network with joint cost function, which combined the cross entropy loss function and the central loss function 
as cost function, to guide the convolution layer to learn more discriminative deep features. The experimental results evaluated 
on the public MSRDailyActivity3D dataset and SYSU 3D HOI dataset. It show that the method obtain a better performance 
compare with other existing method, which validate the effectiveness and robustness of the method. The method effectively 
solves the problem of action classification prone to confusion. 
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含 更 丰富 的 动作 信息 ， 对 光照 条 件 的 变化 不 敏感 ， 可 以 更 可 靠 
地 估计 人 体 轮廓 和 骨骼 等 外 ,文献 [6~11] 利 用 深度 图 的 这 些 特 性 


0 引言 


人 体 动作 识别 在 智能 监控 、 人 机 交互 、 视 频 检索 、 虚 拟 现 。 设计 出 专门 的 特征 描述 子 ， 一 定 程度 上 对 动作 识别 领域 产生 了 
实 等 方面 具有 广泛 的 应 用 ， 因 此 其 一 直 是 计算 机 视觉 领域 一 个 ” 深远 的 影响 。Liu 等 人 [3 提出 增强 的 骨骼 点 形象 化 方法 利用 上 骨 
活跃 的 研究 方向 。 在 以 前 的 研究 中 ， 很 多 关于 人 体 动 作 识别 的 骼 点 的 时 空 序列 对 人 体 动作 进行 视角 不 变 的 识别 ， 上 有 具有 更 广泛 
研究 方法 都 集中 在 传统 的 RGB 视频 0， 但 基于 RGB 视频 数 ”的 实用 性 ， 但 仍 受 限于 利用 骨骼 数据 构造 特定 的 特征 。 因 此 ， 
据 的 处 理 有 很 多 难点 ， 比 如 : 不 具有 视角 不 变性 ， 对 光照 和 背 上述 方 法 都 是 基于 手工 制作 的 特征 ， 这 些 特征 是 对 局 部 或 全 局 
景 的 变化 敏感 ， 对 噪声 不 鲁 棒 等 ， 虽 然 近 几 年 通过 研究 者 的 努 ”时 空 信 息 的 浅 层 次 描述 ， 无 法 同时 捕获 动作 中 重要 的 时 空 和 结 
力 ， 取 得 了 一 些 很 有 意义 的 成 果 ， 但 人 体 动 作 识 别 的 研究 仍然 ” 构 信 息 。 
非常 具有 挑战 性 。 随 着 深度 卷 积 神经 网 络 (deep convolutional neural network, 
E, Hk Kinect 的 发 布 为 这 一 领域 带 来 了 新 的 机 遇 ， DCNN ) 在 ImageNet 图 像 分 类 竞赛 中 获得 巨大 的 成 功 03]， 许 多 
Kinect 设备 可 以 实时 地 采集 深度 图 ， 与 传统 彩色 图 像 相 比 ， 深 ”研究 者 将 ImageNet 上 训练 好 的 模型 应 用 到 诸如 属性 分 类 09、 
度 图 有 许多 优点 ， 例 如 ， 深 度 图 序列 实质 上 是 四 维 空间 可 以 包 像 表 示 05 和 语义 分 割 09 等 任务 中 , 取得 了 良好 的 效果 。 然 而 ， 
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上 述 研究 均 是 针对 彩色 图 像 的 图 像 理解 任务 ， 人 体 动 作 识 别 不 olx) e R" 表示 从 每 一 帧 x 中 映射 而 来 的 特征 向 量 ， 特 征 向 量 
同 于 一 般 的 图 像 理解 任务 ， 特 别 是 基于 深度 信息 的 人 体 动作 识 
别 问题 ， 其 以 深度 视频 这 种 四 维 空间 的 形式 表示 ， 因 此 无 法 效 
仿 上 述 任务 直接 使 用 DCNN 进行 识别 。 Er =w V 表示 其 得 分 ， 一 般 来 说 ， 时 序 越 靠 后 ， 对 应 的 得 分 
Wang 等 人 (7 尝试 通过 设计 加 权 的 深度 运动 映射 图 作为 会 越 大 ， DU MR n»r ei»j. Wirt 
DCNN 的 输入 , 使 人 体 动作 识别 问题 转换 为 图 像 分 类 问题 ,首次 。” 过 程 的 目的 是 找到 满足 目标 函数 式 CD fy, 


ne i iP n 


使 用 DCNN 对 基于 深度 图 的 人 体 动 作 进行 识别 , 但 实验 结果 表 2l, 
B argmin-|w[ * 4» £; 

明 该 方法 的 鲁 棒 性 欠 佳 。 受 Femando 等 人 ns20 提 出 的 顺序 池 » 2 5 () 
化 法 Crank pooling, RP) 在 基于 彩色 图 像 的 人 体 动作 识别 方向 st. w'V,-V)21-&6 20 
上 取得 较 大 成 功 的 激励 , Wang ALU RP 的 基础 上 提出 空间 RP: &, 是 一 个 较 小 非 负 值 ， 参 数 yy* 可 以 表征 在 w 刚 开始 但 
结构 动态 深度 图 Cspatially structured dynamic depth images, v, 尚未 进行 之 时 对 应 的 图 像 序列 的 信息 ， 其 可 作为 图 像 序 列 
SSDDD, 克服 了 RP 操作 抑制 深度 图 空间 局 部 细 粒 度 运动 信息 ”的 特征 描述 子 。 
的 缺点 ， 达 到 了 较 高 的 识别 率 。 由 上 述 分 析 可 知 , RP 是 无 监督 学 习 过 程 , 可 以 将 图 像 序列 

以 上 分 析 可 知 ， 目 前 的 研究 工作 集中 在 寻求 设计 某 种 有 效 者 述 为 新 的 特征 ， 其 是 与 输入 图 像 等 尺度 的 二 维 空间 。 由 于 其 


的 特征 表示 方式 ， 期 望 在 动作 的 四 维 信息 映射 二 维 空间 后 ， 尽 。 包含 整个 动作 过 程 时 空 变化 的 信息 ， 因 此 称 之 为 动态 图 
将 动作 的 重要 特征 在 二 维 空间 中 得 到 表征 ， 从 而 提高 动作 识 (dynamic image, D1)， 基 于 深度 信息 的 动态 图 则 称 为 动态 深 
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别 的 准确 率 。 然 而 ， 笔 者 在 研究 中 发 现 ， 动 作 的 深度 信息 被 映 图 (dynamic depth images, DDI). 

射 到 二 维 空间 表征 后 ， 动 作 在 分 类 过 程 中 很 容易 产生 混淆 ， 从 由 于 在 进行 RP 时 ， 截 止 到 时 间 1 的 平均 特征 v 被 用 于 对 

而 限制 该 类 方法 的 识别 紊 上限。 Wir 进行 分 类 , 所 以 经 池 化 后 的 特征 偏向 于 图 像 序列 的 起 始 帧 ， 
针对 现 有 方法 所 存在 的 问题 ， 通 过 对 文献 [22] 的 研究 和 实 导致 起 始 帧 对 于 y 的 影响 更 大 。 然 而， 这 在 动作 识别 中 显然 是 


Tu 


Fk, 5£ Wen 等 解决 人 脸 识别 领域 类 似 问 题 所 采用 方法 的 启发 ， 不 合理 的 ， 因 为 并 没有 先 验 知识 可 以 得 知 哪 一 帧 对 该 任务 更 
笔者 从 神经 网 络 提取 特征 与 分 类 的 机 制 考虑 问题 ， 结 合 基 于 深 ”要 。 
度 图 的 人 体 动作 识别 的 特点 ， 提 出 基于 联合 代价 函数 的 深度 卷 双向 顺序 池 化 法 (bidirectional rank pooling, BRP) 可 以 大 幅 
职 神经 网 络 (joint cost function based deep convolution neural RE RER mÆ. mR bx EJERCER A IE In] 
network, JCF-DCNN) 用 于 人 体 动 作 识 别 , 尝试 提高 动作 分 类 的 。” DDI(Forward DDI, DDIF) 的 生成 过 程 ， 则 将 图 像 序列 反 向 排序 
准确 性 和 和 鲁 棒 性 ， 该 方法 在 网 络 训 练 过 程 中 增加 训练 样本 的 特 。 后 再 进行 RP 即 为 反 向 DDICbackward DDLDDIB ) 的 生成 过 程 ， 

征 空间 与 类 中 心 的 距离 约束 ， 以 兼顾 动作 特征 的 类 内 聚合 与 类 同时 产生 DDIF 和 DDIB 的 方法 即 为 BRP， 由 此 ， 每 个 动作 的 
间 分 离 ,指导 深度 卷 积 神经 网 络 学 习 到 具有 较 强 分 辨 妨 的 特征 ， 深度 图 像 序列 经 BRP 后 最 终 将 生成 DDIF 和 DDIB 一 对 图 像 。 
以 促使 后 续 进 行 较 精 确 的 分 类 。 图 1 是 该 方法 的 整体 流程 示意 
图 ， 在 MSRDailyActivity3D 和 SYSU 3D HOI 两 个 数据 集 的 实 c | C2 | c3 D 
验 结果 表明 ， 使 用 本 文 提出 的 方法 ， 人 体 动 作 识别 的 准确 率 和 " C5 


(HEIHRESET WISI. c9 


图 2 SSDDI 组 件 分 布 
Fig.2 SSDDI Component distribution 


C4 


1.2 SSDDI 
文献 [18,21] 的 研究 表明 ，BRP 不 仅 受 限 于 动作 长 期 的 动态 
过 程 ， 而 且 也 受 限 于 空间 域 。 由 于 非 监督 的 学 习 方 式 ，BRP 在 


omavnam 时 域 中 主要 对 突出 的 全 局 特征 进行 编码 ， 却 没有 同时 在 时 空域 
图 1 整体 流程 示意 图 发 据 出 具有 分 辨 力 的 运动 模式 。 因 此, 若 直 接 使 用 BRP 对 动作 
i dl method foy 进行 处 理 ， 将 导致 空间 中 颗粒 度 较 小 ， 但 却 对 动作 识别 具有 较 

高 区 分 度 的 运动 信息 被 颗粒 度 较 大 的 运动 信息 所 抑制 ， 特 别 
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1 à 征 方 ; 
动作 表征 方法 对 细 粒 度 的 动作 来 说 ， 在 整个 动作 过 程 中 ， 其 局 部 的 时 
11 RP 5 BRP 的 工作 原理 间 运 动 信 息 相 比 于 全 局 的 运动 信息 来 说 更 重要 。SSDDI 将 深度 
Jg x dH ED AJEN RR X—4xon.oxesx o ， 图 像 序列 在 空间 域 中 按 不 同 的 颗粒 度 分 解 为 多 个 部 分 ， 再 
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部 分 分 别 进行 BRP 操作 ,最 后 其 组 合 起 来 作为 新 的 表征 ， 可 以 


有 效 的 解决 上 述 问题 。 
具体 来 说 ， 将 深度 动作 序列 提取 前 景 后 ， 根 据 


骨骼 区 


或 (joint) 三 个 层次 分 解 ; 


层次 的 组 件 构成 如 表 1 


成 的 DDI 即 为 SSDDI; part 
组 件 的 区 域 
分 ， 作 为 9 个 组 件 ， 
成 对 应 的 DDI， 按 照 图 
每 个 组 件 包 含 1 个 骨骼 点 ， 从 表 2 可 以 看 到 ， 该 层 
共有 16 个 组 件 ， 每 个 组 件 的 区 域 由 
一 定 的 距离 而 成 ， 用 于 组 件 的 骨骼 点 是 从 全 部 20 
选取 的 噪声 较 低 的 16 个 ， 组 件 的 分 布 见 图 2 右 侧 。 


ERIE, 在 空间 域 分 别 按照 全 身 区 域 (body)、 部 分 区 域 (part)、 
其 中 body 层次 是 将 包含 20 个 
骨骼 点 的 整个 人 体 ， 由 于 只 有 一 个 组 件 , 所 以 其 进行 BRP 后 形 


ES 
3 个 骨骼 点 之 间 的 最 大 距离 确定 ， 共 分 成 9 个 部 
可 以 覆盖 全 身 , 将 每 个 组 件 分 别 BRP 后 生 


2 左 侧 所 示 构 造成 SSDDI; joint 层次 的 


骨骼 点 所 在 位 置 对 外 拓展 


骨骼 点 数据 


所 示 ， 每 个 


次 的 SSDDI 


个 骨骼 点 中 


表 1 Part 层次 各 个 组 件 包 含 的 骨 骨 点 
Table 1 Components of part level 

C1 head, shoulder center, shoulder left 
C2 head, shoulder center, shoulder right 
C3 elbow left, wrist left, hand left 
C4 elbow right, wrist right, hand right 
C5 spine, hip center, hip right 
C6 spine, hip center, hip left 
C7 knee left, ankle left, foot left 
C8 knee right, ankle right, foot right 
C9 shoulder left, shoulder center, shoulder right 


以 看 出 , 相 比 于 body 


图 1 中 展示 了 同一 动作 对 应 的 三 个 层次 的 SSDDI， 从 中 可 
层次 的 SSDDI, part 和 joint 层次 的 SSDDI 


对 颗粒 度 较 小 的 动作 表征 更 具有 分 辨 力 ， 可 以 更 有 效 的 实现 对 


动作 进行 从 全 局 到 局 部 运动 以 及 结构 信息 的 表征 ， 


将 上 述 三 个 


于 提高 动作 识别 的 准确 率 。 
表 2 joint 层次 各 个 组 件 包含 的 骨骼 点 


Table 2 Components of joint level 


层次 的 SSDDI 分 别 训 练 JCF-DCNN 后 进行 决策 层 融 合 ， 有 利 


hip center spine shoulder center head 
shoulder left elbow left hand left shoulder right 
elbow right hand right hand left knee left 
foot left hip right knee right foot right 
2 JCF-DCNN 
2.1 JCF-DCNN 的 网 络 结构 及 超 参 数 设 置 


JCF-DCNN 的 意义 在 于 其 
可 以 提高 对 SSDDI 这 类 图 像样 本 的 分 类 准确 
JCF-DCNN 可 以 将 两 个 相似 度 较 高 但 属于 不 同类 另 
开 来 ， 


率 ， 


有 较 强 的 特征 学 习 和 分 类 能 力 ， 


换 句 话说， 
1 的 样本 区 分 


以 对 其 进行 正确 归 类 ， 降 低 动作 分 类 的 混淆 程度 。 


RUESEBUBE eut T X8 56 SUBITA ERU H OI A ER UE 
为 网 络 分 类 层 的 代价 函数 ， 也 即 在 网 络 训练 过 程 中 增加 样本 特 


征 空间 与 类 中 心 的 距离 约束 , 这 样 可 以 指导 JCF-DCNN 的 卷 积 


分 辨 力 的 特征 。 


层 在 训练 时 可 以 学 习 到 更 


C: The convolution layer 


P: The max-pooling | 
FC: The fully connected layer | 


图 3 JCF-DCNN 网 络 结构 


Fig.3 JCF DCNN structure 
如 图 3 所 示 是 所 提出 网 络 的 具体 结构 图 ， 可 


以 看 出 ，JCF- 


DCNN 具有 12 层 ， 主 要 包含 5 个 卷 积 层 和 3 个 全 连接 层 以 及 
后 端的 分 类 层 ， 该 网 络 分 类 层 的 联合 代价 函数 由 交叉 炉 损失 函 


数 与 中 心 损失 函数 组 成 ， 表 3 记录 了 该 网 络 架构 卷 积 层 和 前 2 
个 全 连接 层 的 相关 超 参数 设置 ， 第 3 个 全 连接 层 网 络 的 神经 元 
数量 与 相应 数据 库 的 样本 类 别 数 一 致 。 由 于 目前 基于 深度 图 的 
动作 识别 数据 集 规模 普遍 都 比较 小 ， 若 用 其 从 头 训练 具有 百 万 
级 训练 参数 的 深度 卷 积 神经 网 络 ， 会 出 现 过 拟 合 现象 ， 因 此 ， 
本 文采 用 迁移 学 习 的 方法 , 将 已 在 大 规模 数据 集 ImageNet 上 预 
训练 完成 的 参数 ， 用 于 对 本 网 络 的 全 部 卷 积 层 和 前 2 个 全 连接 
民 进 行 参数 初始 化 。 
训练 时 ， 按 上 述 方法 初始 化 相应 的 网 络 层 ， 但 最 后 一 个 全 
连接 层 使 用 均值 为 0、 标 准 差 为 0.01 的 高 斯 分 布 随机 初始 化 。 
经 过 多 次 实验 分 析 比 较 ， 将 前 3k 次 迭代 学 习 率 设置 为 0.001， 
后 续 的 3k 次 迭代 学 习 率 设 为 0.0001， 共 和 途 代 训练 6000 次 后 能 
够 达到 良好 效果 。 动 量 和 权重 衰减 因子 使 用 经 验 值 0.9 和 0.0005 。 
为 进一步 避免 过 拟 合 ， 在 图 像样 本 进入 深度 卷 积 神经 网 络 前 ， 
先 对 其 尺度 变换 至 256X256， 然 后 以 中 心 和 四 和 角 为 坐标 原点 ， 
剪裁 出 224X224 的 区 域 , 再 进行 镜像 操作 , 使 实际 的 训练 样本 
达到 输入 样本 量 的 10 倍 。 但 测试 时 只 截取 测试 图 像样 本 的 中 
心 区 域 ， 且 不 进行 镜像 操作 ， 同 时 由 于 测试 阶段 只 进行 前 馈 操 
作 ， 因 此 并 不 涉及 中 心 损 失 函 数 ， 只 需 将 交叉 炉 损 失 函 数 的 输 
出 值 进 行 均值 融合 。 
表 3 JCF-DCNN 网 络 结构 超 参 数 设 置 
Table3 Super parameter setting for JCF-DCNN 


Layer Cl C2 C3 C4 C5 FCI FC2 
numb 96 256 384 384 256 4096 | 4096 
filter 11? 5 3? 3? 3? 
stride 4 1 1 1 1 
pad 0 2 1 1 1 
2.2 ENHI AZ 
深度 网 络 中 的 代价 函数 是 整个 网 络 模型 的 “指挥 棒 ” 通过 


真实 标记 产生 的 误差 反 向 传播 指导 网 络 参数 
前 深度 卷 积 神经 网 络 中 


样本 的 预测 结果 与 
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最 常用 的 分 类 损失 函数 ， 其 形式 为 


Wy x; by 
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L - -Y'log Q) 
rl 


D0" +b; 
其 中 : x e Rt 表示 属于 y, 类 的 第 i 个 深度 特征 ，4 是 深度 特征 的 
维 数 ，W e Ri 是 最 后 一 个 全 连接 层 的 权 值 矩阵 ，b e R 是 偏 
JI, W, e R' 表示 权 值 矩阵 Ww 的 第 j 列 ，m 和 分 别 是 每 批 
训练 样本 的 数量 以 及 相应 的 类 别 数 ， 由 于 偏差 项 对 性 能 的 影响 
极其 微小 ， 因 此 为 了 简化 分 析 ， 往 往 可 以 被 忽 
XX (2) 可 知 ， 交 叉 炉 损失 函数 具有 结构 简单 ， 计 算 量 小 
的 优点 ， 因 而 得 到 了 广泛 的 应 用 ， 然 而 从 实际 应 用 角度 来 说 ， 
该 损失 函数 仅仅 关注 了 待 识 别 图 像 应 该 属于 哪个 类 别 的 问题 ， 
即 类 间 分 离 问 题 ， 但 没有 考虑 同样 重要 的 一 个 问题 ， 即 最 终 的 
分 类 器 决策 面 区 域内 的 空间 是 否 均 应 属于 该 类 别 。 实 际 上 ， 同 
一 类 别 下 两 个 图 像样 本 的 距离 有 可 能 比 不 同类 的 距离 还 大 ， 若 
在 这 种 情况 下 使 用 交 义 炉 损失 函数 作为 神经 网 络 的 代价 函数 ， 
极 易 出 现 由 于 待 分 类 的 图 像样 本 太 相 似 而 被 误 判 的 情况 。 值 得 
注意 的 是 ， 交 叉 粒 损失 函数 在 测试 阶段 不 再 进行 梯度 的 计算 ， 
也 不 进行 梯度 的 反 向 传播 ， 仅 作为 计算 相应 类 别 概率 值 的 一 个 
函数 使 用 。 
2.3 中心 损失 函数 及 联合 代价 函数 

为 弥补 交叉 炉 损失 函数 存在 问题 ， 中 心 损失 函数 给 每 一 类 
数据 定义 一 个 中 心 点 ， 这 个 中 心 点 和 聚 类 问题 中 的 中 心 点 十 分 
相似 ， 目 的 是 为 了 使 同一 类 数据 计算 出 来 的 特征 都 能 靠近 自身 
类 别 的 中 心 点 ， 聚 合 类 内 特征 ， 特 征 离 中 心 点 越 远 ， 则 对 其 征 
HRK. A G) 中 对 中 心 损 失 函 数 作 了 形式 化 的 表征 。 
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表 4 MSRDailyActivity3D 数据 集中 的 识别 率 对 比 


Table 4 Comparison of recognition rates in MSRDailyActivity3D 


方法 识别 率 

IPM P4 83.30% 
WHDMMs+ConvNets |!” 85.00% 
SNV P! 86.25% 
DS*DCP-DDP-JOULE-SVMP?! 95.00% 
Range Sample U! 95.63% 
MFSK+Bo VW P351 95.70% 
SSDDIPD 97.50% 

本 文 方法 99.38% 


3 ”实验 与 结果 分 析 


3.1. 实验 环境 与 方法 


实验 环境 所 用 GPU X NVIDIA Quadro P2000, 操作 系统 为 
Ubuntul4.04 , 配置 并 编译 caffe-HAR(https://github.com/ 


liyupeng-ing/caffe-HAR)，caffe-HAR 是 考虑 到 便于 读者 复 现 和 
验证 本 文 所 提出 的 方法 而 上 传 至 开源 网 站 的 文件 夹 ， 其 包含 按 
照 2.2 节 所 叙述 的 JCF-DCNN 网 络 模型 文件 以 及 相关 的 应 用 程 
序 ， 其 是 在 深度 学 习 框 架 caffe27 的 基础 上 ,通过 设计 具有 联合 
代价 函数 的 分 类 层 模块 拓展 而 来 。 联 合 代价 函数 的 超 参数 均 按 
照 经 验 值 ， 将 a WEN OS, 为 0.003 。 采 用 的 
MSRDailyActivity3D 和 SYSU 3D HOI 数据 集中 绝 大 部 分 动作 
都 涉及 人 与 物 的 交互 过 程 ， 具 有 较 大 的 挑战 性 ， 上 述 数据 集 均 
包含 彩色 视频 和 深度 视频 ， 以 及 对 应 的 骨骼 点 数据 ， 本 文 只 使 
用 了 深度 图 像 和 骨骼 点 数据 ,并 没有 用 到 数据 集中 的 彩色 图 像 。 

实验 过 程 包含 训 练 阶段 和 测试 阶段 。 训 练 阶段 ， 使 用 训练 
样本 的 body, part 和 joint 这 三 个 层次 的 SSDDI 分 别 训练 3 个 
网 络 模型 ; 测试 阶段 , 用 三 个 层次 测试 样本 的 SSDDI 分 别 输入 
上 述 对 应 的 网 络 模型 ， 对 每 个 网 络 模型 的 分 类 层 的 输出 结果 进 
行 融合 ， 取 融合 后 得 分 最 大 值 对 应 的 标签 为 识别 结果 ， 实 验 中 


AX 


f FH RU RE ZEE MB RR, URBE BEA) JS E PUR S6 SUR RA 
失 函 数 进 行 工作 ， 并 不 涉及 中 心 损失 函数 ， 即 此 时 的 4 将 自动 


x, 的 类 中 心 ， 其 随 着 深度 特征 x 的 变化 而 更 新 ,参数 a 是 范围 


设置 为 零 , 此 时 分 类 层 的 联合 代价 函数 退化 为 交叉 粒 损失 函数 。 


在 [0.1] 的 缩放 因子 ， 通 过 调节 此 参数 ， 可 以 对 神经 网 络 进行 进 
一 步 的 优化 ， 因 此 其 是 一 个 超 参数 ,变量 m 与 x AIL 
损失 函数 中 介绍 的 一 致 。 

为 整合 交叉 粒 损 失 函 数 和 中 心 损失 函数 的 优点 ， 同 时 使 深 


需要 注意 的 是 ， 每 个 SSDDI 都 对 应 有 DDIF 和 DDIB 一 对 图 
像 ,因此 需要 先进 行 各 个 层次 内 的 融合 ,再 进行 层次 间 的 融合 。 
具体 来 说 , body 层次 的 SSDDI 对 应 的 DDIF 和 DDIB 输入 网 络 
模型 后 会 输出 2 个 相对 应 的 结果 ， 需 将 这 两 个 结果 进行 均值 融 


度 特 征 类 内 聚合 与 类 间 分 离 , 所 提出 的 JCF-DCNN 采用 联合 交 
又 业 损 失 函 数 与 中 心 损失 函数 作为 该 网 络 分 类 层 的 代价 函数 : 
Led +AL. 


WIx +b, 


m e^ i Ae 2 
> log *524ds- 5] 
e no Wixb, 2 A i yll2 


2 
4 是 为 了 控制 两 个 损失 函数 的 比例 而 引入 的 超 参数 ， 当 
多 =0 时 , 联合 代价 函数 将 退化 成 交叉 粮 损 失 函 数 , 图 3 虚线 部 
分 指示 了 联合 代价 函数 在 JCF-DCNN 中 所 处 的 具体 位 置 。 


S 


合作 为 该 层次 内 的 输出 结果 ，part 5 joint 同 理 ， 最 后 将 三 个 层 
次 的 输出 结果 再 次 进行 均值 融合 ， 作 为 最 终结 果 。 
表 5 联合 代价 函数 对 网 络 性 能 的 影响 


Table5 Influence of joint cost function on network performance 


方法 Body DDI Part DDI JointDDI fusion 
JCF-DCNN* 62.5096 92.5094 93.13% 96.8896 
JCF-DCNN 65.6394 90.6396 93.75% 99.38% 
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3.2 ”识别 结果 与 分 析 将 面向 包含 动作 种 类 更 多 的 大 规模 数据 集 进行 研究 ， 同 时 尝试 


MSRDailyActivity3D 数据 集 由 Kinect 深度 摄像 机 采集 , 包 ”设计 其 他 深度 学 习 模 型 ， 尝 试 进一步 提高 人 体 动作 识别 的 准确 
含 16 种 动作 ， 由 10 人 完成 ， 每 人 分 别 做 2 次 动作 ， 其 中 一 个 ” 率 和 重 棒 性 。 
d i i ipn iii ia i 个 文件 。 为 公平 起 见 ， 参考 文献 ， 
训练 样本 和 测试 样本 的 选取 均 遵 从 文献 [7]， 将 2，4，6，8，10 
号 表演 者 的 动作 用 于 训练 ， 1，3，5，7，9 号 表演 者 的 动作 
测试 。 表 4 是 各 种 方法 的 比较 结果 , 可 以 看 出 , 基于 JCF-DC 
的 人 体 动作 识别 方法 的 准确 率 达 到 了 99.38%， 比 SSDDI 提高 — [2] 张 良 , 重 梦 园 ， 姜 华 . 局 部 分 布 信息 增强 的 视觉 单词 描述 与 动作 识别 
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